AI资讯新闻榜单内容搜索- LLM

Attention Sink产生的起点？清华&美团首次揭秘MoE LLM中的超级专家机制

稀疏激活的混合专家模型（MoE）通过动态路由和稀疏激活机制，极大提升了大语言模型（LLM）的学习能力，展现出显著的潜力。基于这一架构，涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。

来自主题: AI技术研报

7317 点击 2025-08-12 11:07

GEO/AEO，并不是一个全新的概念。简单说来，就是 AI 搜索和 LLM 时代的 SEO。

来自主题: AI资讯

6638 点击 2025-08-11 11:07

自首次提出 GPT 架构以来，转眼已经过去了七年。如果从 2019 年的 GPT-2 出发，回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4，不难发现一个有趣的现象：尽管模型能力不断提升，但其整体架构在这七年中保持了高度一致。

来自主题: AI技术研报

8586 点击 2025-08-08 11:52

近年来，大语言模型（LLM）在语言理解、生成和泛化方面取得了突破性进展，并广泛应用于各种文本任务。随着研究的深入，人们开始关注将 LLM 的能力扩展至非文本模态，例如图像、音频、视频、图结构、推荐系统等。

来自主题: AI技术研报

7233 点击 2025-08-06 12:18

视频大型语言模型（Video LLMs）的发展日新月异，它们似乎能够精准描述视频内容、准确的回答相关问题，展现出足以乱真的人类级理解力。

来自主题: AI技术研报

7322 点击 2025-08-02 12:43

近年来，大型语言模型（LLMs）在复杂推理任务中展现出惊人的能力，这在很大程度上得益于过程级奖励模型（PRMs）的赋能。PRMs 作为 LLMs 进行多步推理和决策的关键「幕后功臣」，负责评估推理过程的每一步，以引导模型的学习方向。

来自主题: AI技术研报

7588 点击 2025-07-28 10:49

复合LLM应用 (compound LLM applications) 是一种结合大语言模型（LLM）与外部工具、API、或其他LLM的高效多阶段工作流应用。

来自主题: AI技术研报

8879 点击 2025-07-25 09:51

大语言模型（Large Language Model, LLM）在复杂推理任务中表现卓越。借助链式思维（Chain-of-Thought, CoT），LLM 能够将复杂问题分解为简单步骤，充分探索解题思路并得出正确答案。LLM 已在多个基准上展现出优异的推理能力，尤其是数学推理和代码生成。

来自主题: AI技术研报

6428 点击 2025-07-24 15:10

扩散语言模型（Diffusion-based LLMs，简称 dLLMs）以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性，成为一个重要的发展方向。

来自主题: AI技术研报

9206 点击 2025-07-23 15:04

多模态大模型通常是在大型预训练语言模型（LLM）的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力，但经过多模态训练后，这些模型却能在各类视觉相关任务中展现出强大的表现。

来自主题: AI技术研报

7526 点击 2025-07-15 10:07